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요 약 


메타 검 색 에서 이 질 의 컬 렉 션 으로부터 정 보 를 검 색 할 때, 주어진 질 의 에 대하여 가장 적합한 컬 렉 션 올 
선 택 하는 것에 대한 알 고 리 즘 을 제 안 한 다. 제 안 된 컬렉션 선택 방 법 은 검 색 에 참여한 컬 렉 션 으로부터 질 의 에 
대해 임 의 의 크기 찌 만큼 검색 문 서 를 수 집 한 후에 이를 분 석 하여 컬 렉 션 에 대한 관련성 정도로 추 정 하고 
이를 기 반 으로 컬렉션 선택 기 준 을 결 정 하였다. 이때 가장 적합한 컬 렉 션 을 선 택 하기 위해서, 모 집 단 의 크기 
저 , 관 련 문 서 의 순 서 정보, 정확도 등 의 메타 정 보 를 사 용 하였다. 
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.1. 서 론 효과적으로 사 용 하기도 어 렵 다 [14-17]. 
최 근 에는 이들 컬 렉 션 이 가지고 있는 검색 엔 진 들 
최근 컴 퓨 터 의 급속한 보 급 과 함께 컴퓨터 네트워 을 사 용 자 가 쉽고 편 리 하게 이용할 수 있도록 하는 
크 환 경 이 매우 폭넓게 사용되고 있다. 그 중에서도 정 보 검 색 분 야 의 노력 중 하 나 가 통합 검 색 (06000- 
인 터 넷 으로 이용할 수 있는 컬 렉 션 의 종 류 는 우리들 660 56870) 혹은 메타 검 색 (4668 568700) 의 등 장 이 
의 상 상 을 초 월 하고 있다. 이와 같은 인 터 넷 상의 컬 다. 최근 동 장 한 메타 검 색 기 로서는 200814910 ㅁ 0, 58- 
렉 션 들은 매우 다 양 하게 생 겨 났 으 며 지금도 개 발 되 55680 미 스 다 찾 니 등 이 있으며, 기 존 의 31100, 
고 있다. 이러한 컬 렉 션 들 로부터 사 용 자 가 원하는 정 10566 등과 같은 정보 검색 시 스 템 도 폭 발 적 으로 
보를 얻는 방 법 으 로 는 컬 렉 션 이 제 공 하는 검색 엔진 늘어나는 정 보 를 자 신 의 컴 퓨 터 에 저 장 하 는 중앙 집 
을 사 용 하여 찾 고 자 하는 정 보 름 얻는다. 그러나 이는 주식 정보 관 리 법 에 한 계 를 느껴 00560( 에 서는 메 
안 터 넷 상 에 존 재 하는 수많은 컬렉션 가운데서 자신 타 검색 시 스 템 인 16866 ㅁ 8[6 마 를 개 발 하여 실험 

이 원하는 정 보 가 어디에 있는지 찾 기 도 힘 들 뿐만 적 으 로 운 영 하 고 있 다 [910711.131. 

아니라 뜻한 찾았다 하더라도 컬 렉 션 의 검색 엔 진 을 이 너 한 메타 검색 분 야 에서 질 의 에 대해 검색 결 
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을 선택 문 제 이다. 이는 메타 검색 시 스 템 이 검 색 에 
사 용 하고 있는 수많은 이 질 의 컬렉션 중에서 사용자 
의 질 의 를 만 족 시킬 수 있는 가장 좋은 컬 렉 션 들 
자 동 으로 결 정 하는 방 법 이다. 두 번 째 는 질의어 자동 
번역 문 제 이 다. 메타 검색 시 스 템 에서는 단일 인 터 페 
이 스 를 통해 질 의 어 를 발 생 시 킨 다. 이때 발 생 된 질의 

는 가장 적합한 컬 렉 션 을 선택한 후에 자 동 적 으로 
질 의 된다. 그러나 검 색 에 참여한 이 질 의 컬 렉 션 은 서 
로 다른 질의 문 법 을 가지고 있어서 메타 검색 시스 
템 에서 생 성 된 질 의 어 를 인 식 하 지 못한다. 따라서 이 
들을 자동 번 역 하는 질의어 번 역 기 가 필 요 하 다. 마지 
막 으 로 는 검색 문 서 의 통합 및 순위 매 김 하는 문 제 이 
다. 메타 검색 시 스 템 은 입 력 된 질 의 어 에 대하여 분 
산 된 이 질 의 컬 렉 션 으로부터 검색 결 과 를 수 집 한다. 
그리고, 이들을 통 합 하 고 문 서 에 대하여 순위 매 김 을 
수 행 하여 사 용 자 에게 단일 검색 결 과 를 제 공 한다. 이 
러한 메타 검색 시 스 템 의 세 가지 연구 분 아는 메타 
검색 시 스 템 의 검색 결 과 에 많은 영 향 을 미치며, 또 
한 검 색 을 수 행 할 때 상호 연 동 되어 동 작 한 다. 만약, 
검 색 에 참 여 하 고 있는 컬 렉 션 의 상세 정 보 가 많으면 
많을수록 보다 양 질 의 검색 결 과 를 사 용 자 에게 제공 
할 수 있 다 [5.7.81. 

그러나 메타 검색 시 스 템 에서 검 색 에 참 여 시 키고 
있는 서로 다른 이 질 의 컬 렉 션 에 서 질 의 에 적합한 
검색 문 서 를 추 출 하 고 하 기 란 매우 어렵다. 그 이유 
는 각 컬 렉 션 에 서 사 용 되 는 문서 검색 알 고 리 즘 은 
일 반 적 으로 잘 알려져 있지 않다. 또한 특정 두 개의 
컬 렉 션 이 같은 문서 검색 알 고 리 즘 을 사 용 한 다 하더 
라도 같은 질 의 로부터 나온 검색 결 과 에 대해서도 
상 대 적 으로 비교할 수 없다. 그 이 유 는 이들 컬렉션 
이 가지고 있는 전체 문 서 의 집 합 이 틀리기 때문에 
같은 문서 검색 알 고 리 즘 을 사 용 한 다 하더라도 같은 
질 의 에 대하여 같은 결 과 가 나올 수 없기 때 문 이 다 . 

본 논 문 에서는 메타 검 색 의 주요 연 구 분야 중 하 
나인 컬렉션 선 택 에 대한 모 델 을 제 안 한 다. 이는 주 
어진 질 의 와 컬 렉 션 사 이 의 관련성 분 포 정 보 를 이용 
한 컬렉션 선택 모 델 이다. 그리고 제 안 된 모 델 을 평 
가하기 위해 ㅁ 10160()060.101.6 134007777077007 008- 
60070) 메타 검 색 기 를 프로토 타 입 으로 구 현 하 였 으 
며 , 실 험 을 통해 얻은 검색 결 과 는 검색 정확도 측면 
에서 15% 정 도 향상된 결 과 를 얻었다. 


2. 관련 연구 
컬렉션 선 택 은 메타 검색 시 스 템 의 주요 연구 분 


야 중 하나이다. 이는 메타 검색 시 스 템 에서 질 의 가 
주 어 졌을 때 분 산 된 컬 렉 션 들 중에서 질 의 에 가장 
적합한 컬 렉 션 을 선 택 하 는 것에 대한 문 제 이 다. 따라 
서 이를 통해 메타 검 색 기 에서는 어느 컬 렉 션 으 로 부 
터 질 의 에 대해 문 서 를 검 색 할 지 결 정 하게 되며, 이 
는 검 색 의 효 율 성 에 많은 영 향 을 주는 한 요 소 다. 

이 절 에서는 먼저, 기 존 의 세 가지 컬렉션 선택 
모 델 에 대해 살 펴 본 다 . 먼저 \00 ㅁ 668[2.3] 외 2 명 이 
제안한 컬렉션 선택 모델, 떠 00141?[1,13] 메타 검 
색 시 스 템 에서 사용한 컬렉션 선택 모 델 이고, 다 음 으 
로는 바 야 08100[6] 메타 검색 시 스 템 에서 사용한 컬 
렉션 선택 모델 동 이 다. 

첫 번 째 로 , ㅠ 002166512,3] 외 2 명 이 제안한 컬렉션 
선택 모 델 은 주어진 질 의 와 검 색 에 참여한 컬 렉 션 과 
의 관 련 성 을 유사도 값 (610201204[” ?210468) 으 로 평가 
하고, 이를 이 용 하 여 컬렉션 선 택 을 결 정 하는 모 델 이 
다. 이때 컬 렉 션 에 대한 유사도 값 을 추 정 하 는 방법 
으 로 는 문 서 의 관련성 분 포 (661608701 00041060[ 018- 
016041007) 정 보 와 질의 클 러 스 트 링 (0210464 (61481408) 
정 보 를 이 용 하 였 다. 먼저, 문 서 의 관련성 분포 정보 
를 이용하는 방 법 은 먼저 질 의 들 을 학 습 시 켜 각 컬 렉 
션 에 대해 질 의 의 유사도 값 을 평 가 하 고, 이에 대한 
정 보 를 저 장 한다. 만약 새로운 질 의 가 주 어 지 면 질의 
와 유사한 ( 임 의 의 겠 수 ) 개 의 학 습 된 질 의 를 추 출 하 
여 이들이 가지고 있는 유사도 값 들 의 평 균 값 을 새로 
운 질 의 에 대한 컬 렉 션 의 유사도 값 으로 추 정 하 는 
방 법 이다. 다 음 으 로 는 질 의 들 의 클 러 스 트 링 (0406 
146665208) 정 보 를 이 용 하 여 컬 렉 션 을 선 택 하 는 방 
법 이다. 이는 앞 의 방 법 과 동 일 하게 미리 질 의 들을 
학 습 시켜 질 의 와 컬 렉 션 사 이 의 유사도 값 을 평 가 한 
다. 이렇게 학 습 된 질 의 들 은 공통된 검색 문 서 의 빈 
도 수 에 따라 질 의 들을 클 러 스 트 링 하며, 이들은 각 
각 의 유사도 값 들 을 평 균 값 으로 해당 컬 렉 션 에 대한 
유사도 값 으로 추 정 하고 이를 중심 값 0600 ㅁ 0109 
?781068) 이 라 한다. 만약 새로운 질 의 가 입 력 되면 먼 
저 유사한 학습 질 의 를 찾고, 이 질 의 가 속해 있는 
클 러 스 트 링 의 중심 값 을 새로운 질 의 에 대한 컬렉션 
의 유사도 값 으로 평 가 하는 방 법 이다. 

두 번 째 로는 63130[1,13] 외 3 명 이 제안한 모 델 로 
7/^001/847* 메타 검색 시 스 템 으로 실 험 을 하였다. 
이는 (70227 7/160(00160000 ㅁ 1607621 101606006 06[- 
\000) 검색 모 델 이라고도 하며, 문 서 (000414601), 컬 
렉 션 (60160000) 과 질 의 사 이 의 관 련 성 을 @(0004106 까 
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6046065) 와 700106756 00160000 6 ㅁ 6046005) 를 기 
반 으로 평 가 한다. 또한 질 의 와 컬 렉 션 내의 문서 사이 
에 대한 관 련 성 을 문서 네트워크 부 분 과 질의 네트워 
크 부 분 으로 분 류 하 여 관련성 정 보 를 표현한 모 델 이 
다. (60227 770 모 델 에서는 주어진 질 의 에 대하여 가 
장 적합한 컬 렉 션 을 선 택 하기 위해 (677 과 @ 를 기반 
으로 컬렉션 선택 정 보 를 생 성 한다. 

세 번 째 로는 /7070510216] 메타 검색 시 스 템 에 서 
제안한 컬렉션 선택 모 텔 이다. 이는 미국 캔자스 대 
학의 51490 (72040/0/67/ 외 2 명 이 제안한 하였으며, 9 개 
의 일반 검색 엔 진 을 대 상 으로 질 의 를 수 행 하 고 이들 
로부터 검색 결 과 를 수 집 하여 통합 검색 결 과 를 사용 
자 에게 4 ㅁ 1118 로 보여준다. 2707^145107 메타 검색 시 
스 템 에서는 사 용 자 의 질 의 에 대하여 9 개 의 컬 렉 션 을 
선 택 하 는 방 법 으 로 는 최상의 3 개 검색 엔 진 을 선택 
하는 방법, 가장 빠른 검색 결 과 를 보여주는 3 개 의 
검색 엔 진 을 선 택 하는 방법, 9 개 의 검색 엔진 모 두 다 
사 용 하는 방법, 사 용 자 가 검색 엔 진 을 선 택 하 여 사용 
하는 방법 등 이 있으며, 본 논 문 에서는 최상의 검색 
엔 진 을 판 단 하 는 방 법 에 대해서만 다룬다. 4707 6570" 
메타 검색 시 스 템 은 최상의 3 개 검색 엔 진 을 선 택 하 
기 위해 질 의 에 대하여 컬 렉 션 을 평 가 하고 이를 기반 
으로 컬 렉 션 을 선택할 수 있는 신 뢰 도 (# : 0008- 
06006 『830[07) 정 보 를 생 성 하고 이를 데이터베이스 
정 보 로 구 축 하 여 새로운 질 의 가 발 생 될 때 이를 사용 
한다. 

먼저 최상의 검색 엔 진 을 선 택 하기 위해 뉴스 그 
룹 에서 사 용 하 는 도메인 네 임 으로부터 13 개 의 카테 
고 리 를 선 정 하여 이를 질 의 에 대한 분 류 로 사 용 하였 
다. 이에 대한 카 테 고 리 는 5016066 800 6.0810 ㅁ 66108, 
00010 나 60 5016006, 그 1200, 처 6016 히 800 11066 
00108, 20910655 800 1020006, 50011 800 176118100 ㅁ , 
으 00167, 트 2\ 8300 80?600060 트 2120818 200 프 2571- 
101010606, 1166077, 묘 600628000 800 60667210104606 
스다 재 004916, 8000 등 이 다. 그리고 이들 뉴스 그 룹 으 
로부터 4000 개의 유일한 677 후 보 들 을 추출한 후 
에 이들 1(600 이 카 테 고 리 내의 문 서 에 포 함 되어 있는 
문 서 의 발생 빈도 수 에 대한 정 보 를 지식 데 이 터 베 이 
스로 구 축 한 다. 이러한 지식 데이터베이스 정 보 는 새 
로운 질 의 가 발 생 될 때 컬렉션 선 택 에 대한 신뢰도 
(0) 값 으로 사 용 된 다. [ ㅠ 70『49100 에 서는 컬 렉 션 을 평 
가할 때에 두 가지 요 소 의 곱 으로 한다. 첫 번 째 는 


앞에서 언 급 한 컬 렉 션 의 신 뢰 도 () 값 이며, 다 음 은 
검색된 문 서 의 우선 순위 정 보 (# ㅁ 80008 8807) 이 
다. 이는 검색된 문 서 가 가지는 우선 순위 값 을 통해 
질 의 와 관련된 문 서 의 우선 순위 값 을 보 상 해 준다. 
이렇게 평 가 된 값 을 기 반 으 로 220『491027 메타 검색 
기 에 서는 주어진 질 의 에 대해 최상의 3 개 컬 렉 션 을 
선 택 한 다 . 


3. 메타 데이터 기반 컬렉션 선택 모델 


이 장 에서는 질 의 와 컬렉션 사 이 의 관련성 정 보 를 
사 용 하여 질 의 에 가장 적합한 컬 렉 션 을 선 택 하는 새 
로운 모 델 을 제 안 한 다. 이를 위해 3.1 절 에서는 본 논 
문 에서 제 시 하는 컬렉션 선택 모 델 의 개괄 구 조 를 
살 펴 보 며 , 3.2 절 에서는 컬렉션 선택 방 법 에 대해 살 
펴 본다. 3.2 절 에서 제 안 된 컬렉션 선택 방 법 은 먼저, 
질 의 에 대하여 컬 렉 션 으로부터 검색된 문 서 의 요약 
메타 데 이 터 를 추 출 하고, 이를 사 용 하여 검색 문 서 를 
평 가 한다. 그리고 평 가 된 검색 문서 정 보 를 기 반 으로 
컬 렉 션 에 대한 관련성 분포 정 보 를 추 정 하여 이를 
기 반 으로 컬 렉 션 을 선 택 한 다. 


3.1 컬렉션 선 택 의 개괄 구조 


컬렉션 선 택 이란 메타 검 색 에 서 주어진 질 의 에 대 
하여 가장 적합한 컬 렉 션 을 선 택 하 는 것을 말한다. 
본 논 문 에서 제 안 하는 컬렉션 선택 모 델 은 그림 1 과 
같 으 며 이는 질의어 자 동 번역기, 검 색 문서 평 가 기, 
컬렉션 평 가 기, 컬렉션 선택기 등 네 부 분 으로 구성 
되어 있다. 먼저 질의어 자동 번 역 기 는 사 용 자 로 부터 
주어진 검색 질 의 를 검 색 에 참여한 컬 렉 션 들의 질의 


그림 1. 컬렉션 선 택 의 처 리 과 정 
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문 법 에 맞게 자동 번 역 한 후에, 대선 질 의 하는 기능 
을 제 공 한 다. 두 번 째 는 검색 문서 평 가 기로 검 색 에 
참여한 컬 렉 션 으로부터 회 신 된 검색 문 서 를 동 일 하 
게 검색된 문 서 의 우선 순 위 가 높은 크기 지 만 큼 을 
대 상 으로 본 논 문 에서 제안한 문 서 의 요약 메타 데이 
터 를 추 출 하 고, 제안한 문서 평가 방 법 에 따라 검색 
문 서 를 평 가 한 다 :“ 이 때 검색 문 서 를 평 가 하 는 자세한 
방 법 은 3.2.1 절 에서 소 개 한 다. 세 번 째 는 컬렉션 평 카 
기 이 다. 이는 질 의 에 대해 가장 적합한 컬 렉 션 을 선 
택 하기 위한 기 준 을 추 정 한 다. 이를 위해 본 논 문 에 
서는 검색 문 서 의 재평가 값 , 검색 문 서 의 위치 정보 
평가 값 , 검색 문 서 의 정확도 값 등 으로 퀸 렉 션 을 평 
가 하 였 다. 이에 대한 자세한 평가 방 법 은 3.2.2 절 에서 
소 개 한다. 마 지 막 으로 컬렉션 선 택 기 이다. 이는 전 
단 계 에서 수 행 한 컬 렉 션 의 평가 값 을 기 반 으로 질의 
에 가장 적합한 컬 렉 션 을 선 택 하며, 또한 컬 렉 션 의 
상대적인 평가 값 에 따라 해당 컬 렉 션 으로부터 차등 
적 으 로 검색 문 서 를 수 집 한 다. 

다 음 의 그림 1 은 본 논 문 에서 제 안 하 는 컬렉션 선 
택 모 델 의 개 괄 적 인 처리 과 정 이다. 

이 들 의 처리 과정 순 서 를 화살표 위에 원 번 호 로 
표 시 하였다. 먼저 사 용 자 로 부터 입 력 된 질 의 는 질의 
어 자동 번 역 기 에 의해 검 색 에 참여한 컬 렉 션 의 질의 
문 법 으로 자동 번 역 되며, 질 의 를 통해 수 집 된 문 서 는 
컬렉션 평 가 기 에 서 문 서 를 수 집 하 여 , (1) 검 색 문서 
평가, (2) 컬렉션 평 가 를 통해 질 의 와 컬렉션 사 이 의 
관련성 분포 정 보 를 평 가 한 다. 평 가 된 관련성 분 포 정 
보는 컬렉션 선 택 기 에서 질 의 에 대해 양 질 의 컬렉션 
으로 판 단 할 때 사 용 된다. 즉 사 용 자 에게 검색 결과 
로써 검색 문 서 를 회 신 하기 위해 재 질 의 할 때, 컬 렉 
션 평가 값 의 상대적인 비 율 만 큼 만 검 색 문 서를 수집 
함으로써 컬 렉 션 을 차 등 적 으 로 평 가 하였다. 


3.2 컬렉션 선택 방법 


메타 검색 시 스 템 은 사 용 자 로부터 입 력 된 질 의 에 
대해서 이 질 의 컬 렉 션 으로부터 문 서 를 검 색 한 후에, 
문서 검색 결 과 를 사 용 자 에 게 되 돌 려 준다. 이때 메타 
검색 시 스 템 은 문 서 를 검 색 하기 전에 어느 컬 렉 션 이 
질 의 에 가장 적합한 문 서 를 가지고 있 는 지 를 판단한 
후 문 서 를 검 색 한다. 이러한 컬 렉 션 에 대한 판단 과 
정 을 컬렉션 선 택 이라고 한다. 만약 여러 컬렉션 중 
에서 질 의 에 가장 적합한 문 서 를 가지고 있는 컬렉션 


을 선택할 수 있다면 이는 매우 좋은 검색 결 과 를 
사 용 자 에게 제공해 줄 확 률 이 높다. 이를 위해 이 절 
에서는 양 질 의 컬 렉 션 을 선택할 수 있는 검색 문서 
평가 메타 데이터, 컬렉션 평가 메타 데 이 터 와 이들 
메타 데 이 터 를 기 반 으로 하는 컬렉션 선택 방 법 을 
제 안 한 다. 먼저 3.2.1 절 에서는 검색 문서 평 가 를 위해 
정의한 메 타 데 이 터 와 검색 문서 평가 방 법 올 소 개 하 
고, 3.2.2 절 에서는 컬 렉 션 을 평 가 하기 위한 메 타 데이 
터 와 3.2.1 절 에서 제시된 검색 문서 평 가 를 통해 생성 
된 검 색 문서 평가 정보, 컬렉션 평 가 정 보를 기 반 으로 
컬 렉 션 의 관련성 정 도 를 평 가 하 는 방 법 을 소 개 한다. 


3.2.1 검색 문서 평가 

이 절 에서는 검색된 문 서 를 평 가 하기 위해 정의한 
메 타 데 이 터 와 이를 바 탕 으로 검색 문 서 를 평 가 하 는 
방 법 을 소 개 한다. 이를 위해 본 논 문 에서는 3 개 의 문 
서 요약 메 타 데 이 터 를 정 의 하 였으며, 이를 기 반 으로 
검색된 문 서 를 재 평 가 하였다. 

다 음 은 검색 문 서 를 재 평 가 하 기 위해 본 논 문 에서 
정의한 문서 요약 메타 데 이 터 이다. 


8 11600 7604600 : 이 메타 데 이 터 는 검색된 문 
서 에 서 질 의 가 발생한 빈도 수 에 대한 정 보 를 가지고 
있다. 이는 검 색 문 서 가 질 의 와의 관 련 성 을 평가할 때 
사 용 되 며 , 이를 위해 <1+> 메타 데이터 태 그 로 정의 
하였다. 

8 100041060[ 176046005: 이 메타 데 이 터 는 컬 렉 
션 평 가 를 위해 검색된 임 의 의 크기 찌 안의 문서 가운 
데 질 의 를 포 함 하고 있는 문 서 의 수 에 대한 정 보 이 
다. 이는 검색 문 서 가 질 의 와의 관 련 성 을 평가할 때 
<77> 메타 데 이 터 에 대한 보완 정 보 로 사 용 되 며 , 이 
에 대한 메타 데이터 태 크 를 <10[> 라 정 의 하 였다. 

@ 이 00006: 이 메타 데 이 터 는 컬렉션 평 가 를 
위해 검색된 임 의 의 씨 에 대한 정 보 이다. 이는 검 색 문 
서가 질 의 와 의 관 련 성 을 평가할 때 <[`《> 메타 데이 
터 에 대한 보완 정 보 로 <10[> 메 타 데 이 터 와 함께 사 
용 되 며 , 이에 대한 메타 데이터 태 크 를 <1'(>000【> 라 
정 의 하 였다. 

다 음 으 로 는 앞에서 정의한 메타 데 이 터 를 기 반 으 
로 검색 문 서 예 대한 관련성 분포 정 보 를 평 가 한다. 
이때 처 리 되는 과 정 은 다 음 의 그림 2 와 같다. 

그림 2 는 검색 문 서 를 재 평 가 하 는 과 정 이 다. 먼저 
검색 문서 평 가 기 에 서 검색된 문 서 의 메타 데이터 
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검색 둔 서 평가 시작 


200, = 26 5 1006000946 / 26) 


검색 문서 평가 종료 | 


그림 2. 검색 문 서 의 평가 처리 과정 


나 마 및 7004 메 타 데 이 터 를 추 출 하며, 이러한 
메타 데 이 터 는 수식 1 의 검색 문서 평가 방 법 에 따라 
해당 검색 문 서 를 재 평 가 한다. 이 평가 방 법 은 각 컬 
렉 션 에 서로 다른 문서 평가 방 법 을 사 용 하더라도 
질 의 에 의해 검색된 문 서 는 서로 동 등 하다는 가 정 을 
할 수 있다. 

위에서 정의한 메 타 데 이 터 를 기 반 으로 하는 검색 
문서 평가 방 법 은 수식 1 과 같다. 

수 식 1 은 전통적인 정보 검 색 에서 문 서 를 평가할 
때 사 용 하는 수 식 이며, 본 논 문 에서는 3.2.1 절 에서 재 
정의한 문서 평가 메 타 데 이 터 를 적 용 하 여 검색 문서 
재 평 가 에 사 용 하였다. 수식 1 에 서 사용한 77, 는 검 
색 된 문서 내 에 서 질 의 가 발생한 빈도 수 에 대한 정 
보이다. 이는 하 나 의 문서 내 에 서 질 의 가 발생한 빈 
도 수 에 따라 문 서 의 유 사 성 이 높다는 측 도 로 사 용 된 
다. 그러나 일 반 적 으로 해당 문서 내 에 서 검색 질의 
의 빈도 수가 너무 많으면 질 의 와 는 관 련 이 없는 문 
서가 될 확 률 이 매우 높다. 따라서 이를 보 완 하 


[수직 1] 
20200 』 
10720 
- 274 : 컬렉션 에서 1620 / 가 
발생한 문 서 의 수 
- 2) : 컬렉션 /《 의 문서 ; 에서 
16027 가 발생한 수 
- 70006: 컬렉션 에서 검색된 문 서 의 수 
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기 위해 108 고 평가 항 목 을 사 용 하였다. 이 


는 검색 문서 내 에 서 발 생 하는 빈도 수가 너무 적은 
경 우 와 너무 많은 경 우 예 질 의 와 의 관련성 정 도 를 
보 완 해 주는 역 할 을 한다. 본 논 문 에서 사용한 수식 
1 의 문서 평가 방 법 은 전 통 적 으로 와 104 를 이용하 
는 방 법 과 동일한 개 념 을 적 용 하였다. 이 유 는 이 질 의 
컬 렉 션 으로부터 문 서 를 검 색 할 때 이들 두 가지 메타 
데 이 터 는 각 컬 렉 션 에서 문 서 를 평 가 하는 알고리즘 
으로부터 독 립 적 이다. 따라서 이들 두 가지 정 보 로 
검색 문 서 를 재 평 가 하 면 이 질 의 컬 렉 션 으로부터 검 
색 된 문 서 라 할 지 라 도 평 가 된 문 서 의 값 을 동 등 하 다 
고 할 수 있다. 이를 통해 얻어진 검색 문 서 의 평가 
값 721/,, 로 표 현 하 였으며, 이를 컬 렉 션 의 관련성 분 
포 정 보 를 평가할 때 하 나 의 요 소 로 사 용 하 였다. 


3.2.2 판 련 성 분 포 정보 평가 


이 절 에서는 검색 질 의 가 주 어 졌을 때, 가장 양질 
의 컬 렉 션 이 어느 것 인 지 를 판 단 하는 두 번째 과 정 이 
며 , 그럼 1 의 컬렉션 평 가 기 에 서 이를 처 리 한다. 먼저 
관련성 분포 정 보 란 검색 질 의 와 검 색 에 참여한 컬 렉 
션 사 이 의 관련성 정 도 를 말한다. 따라서 이 값 이 크 
면 해당 컬 렉 션 으로부터 검색 질 의 와 관련된 문 서 를 
검 색 할 확 률 이 높다고 판 단 하며, 반대로 낮 으면 검색 
질 의 와 상 관 없 는 문 서 를 검 색 할 확 률 이 높다고 판단 
하다. 이를 위해 여 기 에 서는 3.2.1 절 의 검색 문 서 의 
평가 결 과 를 기 반 으로 컬 렉 션 에 대한 관련성 분포 
정 보 를 평 가 하기 위한 3 개 의 메 타 데 이 터 와 이에 대 
한 평가 방 법 을 제 안 한 다. 

다 음 은 컬 렉 션 의 관련성 분 포 정 보 를 평 가 하기 위 
한 메타 데 이 터 이다. 


# 120040060 ㅁ (300: 이 메타 데 이 터 는 메타 검 색 기 에 
서 생 성 된 질 의 에 대하여 컬 렉 션 으 로부터 검색 문서 
를 수 집 할 때 검색 문 서 에 대한 우선 순위 정보 데이 
터 이다. 이 메 타 데 이 터 는 컬 렉 션 을 평 가 하고, 문 서 에 


. 대한 순위 매 김 을 할 때 각각 사 용 되 며 , 이를 위해 


<12840> 메타 데이터 태 그 를 정 의 하였다. 

@ 000041060(6 01 : 이 메타 데 이 터 는 컬 렉 션 에 서 
검색된 문 서 의 인터넷 주소 데 이 터 를 가지고 있다. 
본 논 문 에서는 이 질 의 컬 렉 션 으로부터 문 서 를 검색 
한 후에 검색 문 서 의 1 ㅁ [을 분 석 하여 검색 문 서 의 
중복성 및 빈 00《1. 등 을 판 단 할 때 사 용 한 다. 만약 
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검색된 문서 가운데 중 복 된 0][. 이 발 생 되 면 동일한 
문 서 를 검 색 한 것으로 간 주 하여 중 복 된 문 서 를 삭제 
할 때 사 용 하 고, 빈 471Ｌ 인 경 우 에는 관 련 없 는 문서 
로 간 주 할 때 사 용 하였다. 이를 위해 <100 ㅁ > 메타 
데이터 태 그 를 정 의 하 였다. 

& 170[01708000 17065 : 이 메타 데 이 터 는 검 색 에 
참여한 컬 렉 션 의 종 류 에 대한 메타 데 이 터 이다. 이는 
컬 렉 션 에 대하여 검색 문 서 의 관 련 성 을 평가할 때 
평가 요 소 로 사 용 된다. 이를 위해 <11'> 메타 데이터 
태 그 를 정 의 하였다. 


컬 렉 션 에 대한 관련성 분포 정보 평 가 는 3.2.1 절 의 
검색 문서 평가 결 과 와 앞에서 정의한 메타 데 이 터 를 
기 반 으로 평 가 한다. 이때 평 가 되 어 지 는 개 괄 적 인 처 
리 과 정 은 다 음 의 그림 3 과 같다. 

그럼 3 에 서 컬 렉 션 에 대한 관련성 분포 정보 평가 
는 크게 세 가지 요 소 를 기 반 으로 평 가 를 한다. 먼저 
검색 문 서 의 평가 값 에 대한 합 이다. 이는 3.2.1 절 에 
서 검색 문서 평가 방 법 을 소 개 하 였으며, 검색 문서 
평가 값 은 질 의 와의 관련성 정 도 를 나타낸다고 할 
수 있다. 따라서 평 가 된 검색 문 서 의 결과 값 을 합 하 
여 컬 렉 션 을 평가할 때 사 용 하였다. 

두 번 째 는 검색 문 서 의 정 확 도 이 다. 이는 컬렉션 
을 평가할 때 평 가 하 고 자 하는 검색 문서 가운데 유일 
하게 관련 문 서 로 판 단 된 비 율 을 정 확 도 라 한다. 이 
때 검색 문서 가운데서 중 복 된 문서, 빈 0, 검 색 문 
서 평가 값 이 ㅇ 보 다 작은 경우 등 은 관 련 없는 문서 
로 간 주 하였다. 먼저 중 복 된 문 서 의 판 별 은 검색된 


그림 3. 컬 렉 션 의 관련성 평가 처리 모델 


문 서 가 가지는 081Ｌ 을 서로 비 교 하여 동일한 41 일 
경 우 에는 중 복 된 문 서 로 간 주 하였으며, 빈 01. 의 판 
단 은 검색된 문 서 가 가지는 ㅁ 07Ｌ 을 사 용 하여 메타 
검 색 기 가 문서 요청 메 시 지 를 전 달 하여 되 돌 아 오는 
신 호 를 보고 판 단 하 였다. 본 논 문 에서는 문서 요 청 에 
대한 217? 회신 코 드 가 “4※%※×"” 일 경 우 에는 현재 사 
용 할 수 없는 [로 이 정 보 를 빈 211 구 분 에 사용 
하였다. 

이에 대한 평가 과 정 은 다 음 의 수식 2 로 정 의 하 
였다. 

수식 3 에 서 24764, 은 검색 문 서 의 평가 값 을 통해 
검색된 문 서 와 질의 사 이 의 관 련 성 에 대한 정 보 롤 
가지는 메타 테 이 터 이다. 이때 판 련 성 메 타 데 이터 값 
이 1 일 경 우 는 관련 문 서 로 , 0 일 경 우 는 관 련 없는 
문 서 로 판 단 하 였으며, 이를 통해 해당 컬 렉 션 에 서 관 
련 문 서 의 수 를 합한 후에 평가 대상 전체 문 서 의 
수 쥐 으로 나누어 컬 렉 션 에 대한 정확도 0, 값 으로 
계 산 하 였다. 

마 지 막 으로 관련 문 서 의 위치 정 보 에 대한 평가 
값 이다. 이는 컬 렉 션 을 평가할 때 관 련 있 는 문 서 의 
위 치 에 따라 컬 렉 션 의 관련성 정 도 를 보 상 해 주기 
위해 사 용 한 다. 다 음 의 수식 3 은 컬 렉 션 에 대한 위치 
정보 평 가 식 이 다. 

수식 3 에 서 /76// 은 질 의 와 검색 문서 사 이 의 관 
련 성 값 을 가지며, 이를 검색 문 서 가 가지고 있는 우 


[수 


직 21 
구 22200 


= 그 ~ 


- 72760 : 질 렉션 /《 에 서 문서 / 에 
대한 관련성 검사 값 
- (2, : 컬렉션 《 의 정확도 값 


[수직 3] 
1070200 
209 ,= 주고 ㅠ 
- 컬렉션 에서 


- 276 : 컬렉션 《 에서 문서 [에 
대한 관련성 검사 값 

- 209, : 컬렉션 《 에 서 관 련 문 서 에 
대한 위치 정보 값 
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치 정보 』 를 사 용 하여 헌 - 은 으 를 계 산 하였다. 
이는 컬 렉 션 을 평 가 하기 위해 정의한 모 집 단 에서 관 
련 문 서 의 위치 정 보 에 대한 가 중 치 이다. 이를 모집단 
의 크기 지 으 로 나누어 최 종 적 으로 컬렉션 평 가 에서 
관련 위치 정 보 의 가중치 값 으로 사 용 하였다. 

따라서 검 색 에 참여한 컬 렉 션 이 주어진 질 의 에 대 
하여 얼마나 좋은 문서 집 단 인 지 를 나타내는 척 도 를 
관련성 분포 정 보 라 하였다. 즉 질 의 에 대해서 양질 
의 문 서 를 많이 가질 경 우 에는 이 값 이 커지며, 반대 
로 질 의 와 관 련 이 적 을 수록 관련성 분 포 정 보 도 작아 
진다. 이를 위해 수식 1, 2, 3 에 서 계 산 한 값 을 합하여 
해당 컬 렉 션 에 대한 평가 값 으로 정 의 하였다. 다 음 의 
수식 4 는 컬 렉 션 에 대한 관련성 분포 정 보 를 계 산 하 
는 식 이 다. 

수식 4 에 서 사용한 구성 요 소 는 먼저 수식 1 에 서 
계 산 한 문 서 에 대한 7604 \618 나 가 중 치 (/24/,0) 와 
수식 3 에 서 평 가 한 관련 문 서 의 정 확 도 (<) 그리고 
수식 3 에 서 계 산 한 관련 문 서 에 대한 위치 정보 값 
(2050 등 으로 컬 렉 션 에 대한 관련성 분포 정 보 를 
평 가 하였다. 

다 음 으 로 는 질 의 에 대하여 평 가 된 컬 렉 션 의 개별 
적인 관련성 분포 정보 값 을 검 색 에 참여한 모든 컬 
렉 션 에 대하여 상대적인 관련성 분포 정보 비 율 울 
계 산 한다. 이는 검 색 에 참여한 컬렉션 사 이 의 상대적 
인 평가 자 료 가 된다. 

수식 5 에 서 사용한 (14/\ 는 수식 4 에 서 평 가 된 컬 
렉 션 의 가중치 값 이다. 이 (<, 값 을 사 용 하여 컬 렉 
션 에 대한 상대적 관련성 분 포 정 보를 계 산 하였다. 즉 
질 의 에 대하여 평 가 된 개별 컬 렉 션 의 가중치 값 에 
검 색 에 참여한 모든 컬 렉 션 에 대한 가중치 값 을 합산 


한 값 힙 (00, 를 나누어 개별 컬 렉 션 이 차지하는 


상대적인 비 율 을 얻을 수 있다. 이를 통해 질 의 에 대 
하여 해당 컬 렉 션 이 차지하는 상대적인 비 율 을 계 


[수직 4] 
0=| 져 20.+ 209.+ 620] 
- 220, : 컬렉션 《 에서 문서 』 에 
대한 1600 가중치 값 
- 205, : 컬렉션 《 에 대한 위치 정보 값 
- 62。 : 컬렉션 《 에 대한 정확도 


[주직 5] 


0. =- ㅜ ~ 


1“, 
20 
- 게 10, : 각 컬렉션 가중치 값 의 합계 
- (0, : 각 컬렉션 가중치 값 

- 0 : 검 색 에 사 용 된 컬 렉 션 의 수 


산 하 였 다. 

본 논 문 에서는 평 가 된 컬 렉 션 의 관련성 분 포 정보 
를 사 용 하여 각 컬 렉 션 으로부터 검색 문 서 의 수 를 
상대적 비 율 만큼 수 집 하였다. 또한 이 질 의 정 보 원 으 
로부터 검색된 문 서 들을 하 나 의 검색 결과 집 합 으로 
통 합 할 때에는 관련성 분 포 정 보 의 상대적 비 율 을 기 
반 으로 동일한 비율 내에 포 함 된 검 색 문 서 는 문 서 의 
순위 매김 방 법 이 동 등 하다는 것으로 가 정 하 였다. 

다 음 의 그림 4 는 수석 5 에 서 계 산 된 관련성 분포 
정 보 의 상대적 비 율 을 기 반 으로 3 개 의 컬 렉 션 으 로 부 
터 검색 문 서 를 수 집 하는 예 제 이다. 

예 를 들어 그림 4 와 같이 4, 8, 6 3 개 컬 렉 션 이 
검 색 에 참 여 하였으며, 이 들 의 상대적 관련성 분 포 정 
보가 60%, 30%, 10% 로 평 가 되 었다고 가 정 한 다. 이 
때 각 컬 렉 션 으로부터 검 색 할 문 서 의 수 는 ㅅ 컬렉션 
으로부터 6 개 , 8 컬 렉 션 으 로부터 3 개 , (: 컬 렉 션 으로 
부터 1 개 동의 비 율 로 문 서 를 검 색 하였으며, 검색된 
문 서 들은 점선 화 살 표 로 표시된 부분 내 에 서 문 서 들 
의 우선 순 위 를 정하여 이를 내 림 차 순 으로 통 합 하 
였다. 


4. 비교 분석 


이 장 에서는 기 존 의 컬렉션 선택 모 델 과 본 논문 


| 정보원 8 : 30% 정보원 6: 10% , 


그림 4. 관련성 분 포 정 보 를 이용한 문 서 수 집 방법 
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에서 제안한 컬렉션 선택 모 델 에서 사 용 된 메타 데이 
터 와 이 들 의 특 징 들을 비교 분 석 해 본 다. 아 래 의 표 
1 은 컬렉션 선 택 에서 사 용 된 메타 정 보 들 을 서로 비 
교 해 보고, 그 특 징 들 에 대해 간략히 기 술 하였다. 

현 재 까지 알려진 대 부 분 의 기존 연 구 들은 주어진 
질 의 에 가장 적합한 컬 렉 션 을 선 택 하 기 위해 자 신 의 
검색 정 보 를 새롭게 생 성 하고, 이들을 평가 기 준 으로 
질 의 가 발 생 될 때 사 용 하였다. 이는 인 터 넷 상 에 존재 
하는 수많은 문 서 들 에 대해 검색 정 보 를 생 성 해야 
한다는 단 점 이 있으며, 또한 생 성 된 검색 정 보 들 을 
동 적 으로 변하는 인터넷 환 경 에서 일관성 유 지 를 위 
해 사 용 되 는 비 용 도 매우 크다. 그래서 본 논 문 에서 
이러한 검색 정 보 를 생 성 하지 않 으 면 서 , 검 색 의 
효 율 을 보 장 할 수 있는 메타 정 보 를 사 용 하여 컬렉션 
을 선 택 하 는 모 델 을 제 안 하 였다. 

본 논 문 에서 제 안 하는 모 델 의 가장 큰 특 징 은 (1) 
검색 정 보 를 생 성 하 지 않고, (2) 메타 정 보 만으로 컬 
렉 션 을 선택할 수 있는 장 점 이 있다. 


키보 


5. 실 험 결 과 


이 장 에서는 본 논 문 에서 제안한 컬렉션 선택 모 


표 1. 컬렉션 선 택 예서 사용한 메 타 정보 비교 
컬렉션 평 가 요소 


평 가 정보 ㅣ 


검색 데이터베이스 


델 에 대해 성 능 을 평 가 하 기 위해 구 현 한 220/6/02(076 
메타 검색 시 스 템 과 현재 일 반 적 으로 많이 사용되고 
있는 5 개 의 일반 검색 엔 진 들 과 3 개 의 메타 검색 엔 
진 과 의 실험 결 과 를 소 개 한다. 

먼저, 검색 평 가 를 위해 사용한 질 의 와 평가 항목 
들은 다 음 과 같다. 검색 질 의 로 는 770『49100 메타 검 
색 에서 평 가 를 위해 사용한 뉴스 그 룹 에 서 의 13 개 의 
주 제 어 를 검색 질 의 로 사 용 하였다. 이들 질 의 는 
읍 016066 800 6081066 ㅁ 008, ㄴ ㄷ 01002 나 6 을 이 6006, 그 78?- 
인, 54601681 300 21066 아 2010837, 20810655 800 1- 
7 ㅁ 81466, 50 이 리 300 트 6119100, 5001667 1.8\ 800 (607- 
6001060(, 스 ㅁ 01615 800 07170010060[, 터 16601, 트 6- 
06068000 800 『0667121001606, 스타, 14916, 8000 동이 
다. 이러한 질 의 는 일 반 적 으로 인 터 넷 상 의 자 료 들 을 
주 제 별 로 분 류 할 때 자주 사 용 되 는 기 준 이다. 즉 이 
들 질 의 는 특정한 주 제 예 종 속 되 지 않아 보 편 성 을 
가지고 있으며, 질 의 로 사 용 되 어도 임 의 의 검색 시스 
템 에 종 속 되는 결 과 는 발 생 하 지 않는다고 가 정 할 수 
있다. 다 음 은 검색 결과 평 가 를 위한 항 목 들 로써 (1) 
관련 문 서 의 수, (2) 비 관련 문 서 의 수, (3) 빈 0#&Ｌ, 
(4) 중 복 간 련 문서 문 서 의 수, (5) 유 일 관련 문 서 의 
수, (6) 검 색 문 서 의 정확도 등 을 사 용 하 였다. 본 논문 


| 1) 질 의 의 관련성 
파 | 


분 포 정보 18 


| 1) 질 의 의 클 러 스 
ㅣ 트렁 검색 정보 
| 108 


따따 빼 


※ 장점 

1) 빠른 컬 렉 션 선택 

# 단점 

1) 질 의 를 학 습 시 키 기 가 힘들다. 

2) 학습 질 의 로 검색 정 보 의 관 리 가 힘들다. 


| 1) 001 ㅁ 6[ 의 
ㅣ _ 검색 108 정보 


1) 검색 인덱스 정보 생성 및 
유 지 가 힘들다. 


지 식 08 
검 색 정보 


바 07049100 


@ 장점 

1) 빠른 컬 렉 션 선택 

@ 단점 

1) 지식 12 를 매일 갱 신 한 다. 

23) 지식 18 의 관리 비 용 이 크다. 


본 논문 
의 제안 
모델 


| 1) 사 용 하 지 않음 


@ 장점 
1) 검색 인덱스 정보 생 성 비 용이 없다. 
2) 동적 환 경 에 적 용 하기 쉽다. 
# 단점 
1) 컬렉션 평 가 를 걸 렉 션 을 선택할 때 처 리 하 여 검색 
에 대한 웅 답 시 간 이 늘어난다. 


메타 검 색 에서 실 의 와 컬렉션 사 이 의 관련성 분 포 정 보 를 이용한 컬렉션 선택 295 


에서는 (1) 번 과 (5) 번 항 목 으 로 컬 렉 션 에 대한 검색 
결 과 의 정 확 성 을 평 가 하 였다. 

아 래 의 표 2 는 컬 렉 션 으로부터 검색된 문서 중에 
서 상위 30 개 의 문 서 를 대 상 으로 (1) 관련된 문서, 
(2) 비 관련된 문서, (3) 빈 07, (4) 중복 검색된 문 
서 , (5) 유 일 하 게 관련된 문서, (6) 정확도 등 의 6 가 지 
항 목 으로 분 류 하 여 컬렉션 선 택 의 효 율 성 을 간접적 
으로 비 교 하 였다. 

본 실 험 에서는 제안한 관련성 분포 정 보 를 기 반 으 
로 검색 결 과 와 기 존 의 단일 검 색 엔진 결 과 와의 비교 
에서 컬 렉 션 의 선택 면 에 서 약 15% 의 성능 향 상 올 
확 인 하였다. 


6. 결 론 


인 터 넷 상의 수많은 컬 렉 션 들은 독자적인 정보관 
리 모 델 을 가지고 있다. 이는 인 터 넷 의 폭 넓 은 보급 
으로 인 터 넷 의 바 다 에서 정 보 를 찾 고 자 하는 사용자 
들 에게 다양한 컬 렉 션 들 의 검색 방법 사 용 에 대한 
추가적인 부 담 되 고 있다. 따라서 인 터 넷 에서 정 보 를 
검 색 하 고 자 할 때 쉽고 편 리 하면서도 찾 고 자 하는 정 
보를 정확하게 수 집 할 수 있는 검색 방 법 이 요 구 되 고 
있다. 본 논 문 에서는 통합 검색 시 스 템 을 사 용 하여 
인 터 넷 상 의 다양한 정 보 들을 효 율 적 으로 검 색 할 수 
있는 모 델 을 제 안 하 고, 이 제 안 된 모 델 의 검색 성능 
을 평 가 하 기 위해 220/6/272(276 통합 검색 시 스 템 올 
설계 및 구 현 하 였다. 

향후 연구 과 제 로는 컬 렉 션 에 대한 양 질 의 정 보 를 
얻기 위해서 질 의 에 적합한 컬 렉 션 을 선택할 수 


표 2. 컬 렉 션 에 서 검색된 문서 중 상위 30 개 에 대한 분석 


5 90060 0 | ㅁ 00 5 애 봉 연 
바그 처 0600 106 내버 


있도록 표 준 화 된 메타 데이터 개발, 컬렉션 평 가 를 
위한 컬렉션 평가 메 타 데이터 설계 및 개발, 컬렉션 
에 대한 정보 수집 방 법 과 융합 클러스터링 기 법 의 
개발 등에 대 한 연 구 가 필 요 하 다. 또한 질의 처리 기 
농 의 확 장 이 필 요 하다. 즉 , 불 리 언 모 델 에 바 탕 을 둔 
질의 처리 기 능 과 순위 매 김 (80008) 모 델 에 바 탕 을 
눈 질의 처리 기능 동의 연 구 이다. 이러한 정 보 는 본 
논 문 에서 제시된 알 고 리 즘 의 성 능 을 크게 개 선 시킬 
수 있다. 
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